import pandas as pd
df = pd.DataFrame({'客户编号': [1, 2, 3], '性别': ['男', '女', '男']})
df

df = pd.get_dummies(df, columns=['性别'], dtype=int)
df

df = df.drop(columns='性别_女')

df

import pandas as pd
df = pd.DataFrame({'房屋编号': [1, 2, 3, 4, 5], '朝向': ['东', '南', '西', '北', '南']})
df

df = pd.get_dummies(df, columns=['朝向'], dtype = int)
df

df = df.drop(columns='朝向_西')

df

import pandas as pd
df = pd.DataFrame({'编号': [1, 2, 3, 4, 5], '城市': ['北京', '上海', '广州', '深圳', '北京']})

df

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder() # 将LabelEncoder()函数赋给变量le
label = le.fit_transform(df['城市']) # 用fit_transform()函数将待转化的列传入模型中进行拟合，并将结果赋给变量label

print(label)

[1 0 2 3 1]

df['城市'] = label

df

df = pd.DataFrame({'编号': [1, 2, 3, 4, 5], '城市': ['北京', '上海', '广州', '深圳', '北京']})

df['城市'].value_counts()

城市
北京    2
上海    1
广州    1
深圳    1
Name: count, dtype: int64

import warnings

warnings.filterwarnings('ignore')

df['城市'] = df['城市'].replace({'北京': 0, '上海': 1, '广州': 2, '深圳':3})
df

# 这里首先创建一个含有重复值的DataFrame，代码如下：
import pandas as pd
data = pd.DataFrame([[1, 2, 3], [1, 2, 3], [4, 5, 6]], columns=['c1', 'c2', 'c3'])

# 此时的data二维列表如下所示，可以看到第一行和第二行是重复的。
data

# 如果数据量较大，我们可以通过duplicated()函数来查询重复的内容，代码如下：
data[data.duplicated()]

# 如果想统计重复行的数量，可以通过sum()函数进行查看，代码如下，本案例结果为1。
data.duplicated().sum()

1

# 发现有重复行的时候，可以通过drop_duplicates()函数删除重复行，代码如下：
data = data.drop_duplicates()

data

# 如果想按列进行去重，比如说如果c1列出现相同的内容，可以采用如下代码。这样的筛选条件则不如之前要全部一样才删除严格。
data = pd.DataFrame([[1, 2, 3], [1, 2, 3], [4, 5, 6]], columns=['c1', 'c2', 'c3'])
data = data.drop_duplicates('c1')
data

# 这里先构造一个含有缺失值的DataFrame，代码如下：
import numpy as np
data = pd.DataFrame([[1, np.nan, 3], [np.nan, 2, np.nan], [1, np.nan, 0]], columns=['c1', 'c2', 'c3'])
data

# 可以用isnull()函数或isna()函数（两者作用类似）来查看空值，代码如下：
data.isnull()  # 或者写data.isna()

# 也可以对单列查看缺失值情况，代码如下：
data['c1'].isnull()

0    False
1     True
2    False
Name: c1, dtype: bool

# 如果数据量较大，可以通过如下代码筛选某列内容为空值的行，代码如下：
data[data['c1'].isnull()]

# 对于空值有两种常见的处理方式：删除空值和填补空值。
# 通过dropna()函数可以删除空值，代码如下：
a = data.dropna()
a

# 如果觉得该删除方法过于激进，可以设置thresh参数，比如将其设置为n，那么其含义是如果该行的非空值少于n个则删除该行，演示代码如下：
a = data.dropna(thresh=2)
a

# 通过finllna()函数可以填补空值，这里采用的是均值填充法，通过每一列的均值对该列的空值进行填充，也可以把其中的data.mean()换成data.meian()则变为中位数填充。
b = data.fillna(data.mean())
b

# 此处method='pad'代表用缺失值所在列的前一个值填充，如果前一个值不存在或也缺失，则结果不变。运行结果如下：
c = data.fillna(method='pad')
c

# 还可以采用method='backfill'或method='bfill'用缺失值所在列的后一个值填充，如果后一个值不存在或也缺失，则结果不变。
d = data.fillna(method='backfill')
e = data.fillna(method='bfill')

print(e)

print(d)

    c1   c2   c3
0  1.0  2.0  3.0
1  1.0  2.0  0.0
2  1.0  NaN  0.0
    c1   c2   c3
0  1.0  2.0  3.0
1  1.0  2.0  0.0
2  1.0  NaN  0.0

# 这里先构造一个含有异常值的数据集：
data = pd.DataFrame({'c1': [3, 10, 5, 7, 1, 9, 69], 'c2': [15, 16, 14, 100, 19, 11, 8], 'c3': [20, 15, 18, 21, 120, 27, 29]}, columns=['c1', 'c2', 'c3'])
data

# 利用箱型图观察

data.boxplot()  # 画箱型图

<Axes: >

# 利用标准差检测

a = pd.DataFrame()
for i in data.columns: # 将每列数据进行 Z-score标准化
    z = (data[i] - data[i].mean()) / data[i].std()
    a[i] = abs(z) > 2 # 进行逻辑判断，如果Z-score标准化后的数值大于标准正态分布的标准差1的2倍，那么该数值为异常值，返回布尔值True，否则返回布尔值False

a

# 标记包含异常值的行
rows_with_outliers = a.any(axis=1) # axis=1 表示按行操作, any() 是检测是有存在至少一个True值
rows_with_outliers

0    False
1    False
2    False
3     True
4     True
5    False
6     True
dtype: bool

data

# 删除包含异常值的行
data_cleaned = data[~rows_with_outliers]
data_cleaned

# 构造数据
import pandas as pd
X = pd.DataFrame({'酒精含量(%)': [50, 60, 40, 80, 90], '苹果酸含量(%)': [2, 1, 1, 3, 2]})
y = [0, 0, 0, 1, 1]

X  # 查看X

from sklearn.preprocessing import MinMaxScaler

X_new = MinMaxScaler().fit_transform(X)


X_new = pd.DataFrame(X_new, columns=['酒精含量', '苹果酸含量'])

X_new  # 查看X_new

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=123)

from sklearn.preprocessing import StandardScaler
X_new = StandardScaler().fit_transform(X)

X_new = pd.DataFrame(X_new, columns=['酒精含量', '苹果酸含量'])

X_new

import pandas as pd
data = pd.DataFrame([[22,1],[25,1],[20,0],[35,0],[32,1],[38,0],[50,0],[46,1]], columns=['年龄', '是否违约'])
data

# 通过如下代码即可进行等宽数据分箱：
data_cut = pd.cut(x = data['年龄'], bins = 3) # 第1个参数是待分箱的列，第2个参数是分箱个数
print(data_cut)

0    (19.97, 30.0]
1    (19.97, 30.0]
2    (19.97, 30.0]
3     (30.0, 40.0]
4     (30.0, 40.0]
5     (30.0, 40.0]
6     (40.0, 50.0]
7     (40.0, 50.0]
Name: 年龄, dtype: category
Categories (3, interval[float64, right]): [(19.97, 30.0] < (30.0, 40.0] < (40.0, 50.0]]

# 通过groupby()函数进行分组，count()函数（详见14.3节补充知识点）进行计数可以获取每个分箱中的样本数目，代码如下：
data['年龄'].groupby(data_cut).count()

年龄
(19.97, 30.0]    3
(30.0, 40.0]     3
(40.0, 50.0]     2
Name: 年龄, dtype: int64

# 补充知识点，分箱并进行编号
print(pd.cut(data['年龄'], 3, labels=[1, 2, 3]))

0    1
1    1
2    1
3    2
4    2
5    2
6    3
7    3
Name: 年龄, dtype: category
Categories (3, int64): [1 < 2 < 3]

# 首先通过如下代码构造数据：
import pandas as pd
data = pd.DataFrame([[22,1],[25,1],[20,0],[35,0],[32,1],[38,0],[50,0],[46,1]], columns=['年龄', '是否违约'])
data

# 有了数据之后，根据“年龄”这一特征变量进行数据分箱，代码如下：
data_cut = pd.cut(data['年龄'], 3)
data_cut

0    (19.97, 30.0]
1    (19.97, 30.0]
2    (19.97, 30.0]
3     (30.0, 40.0]
4     (30.0, 40.0]
5     (30.0, 40.0]
6     (40.0, 50.0]
7     (40.0, 50.0]
Name: 年龄, dtype: category
Categories (3, interval[float64, right]): [(19.97, 30.0] < (30.0, 40.0] < (40.0, 50.0]]

import warnings

warnings.filterwarnings('ignore')

# 统计总客户数
cut_group_all = data['是否违约'].groupby(data_cut).count()
# 统计违约客户
cut_y = data['是否违约'].groupby(data_cut).sum()
# 统计未违约客户
cut_n = cut_group_all - cut_y

# 这里展示下cut_group_all的结果，如下所示：
cut_group_all

年龄
(19.97, 30.0]    3
(30.0, 40.0]     3
(40.0, 50.0]     2
Name: 是否违约, dtype: int64

# 通过2.2.1节相关知识点将cut_group_all、cut_y、cut_n进行汇总，代码如下，这里我们将违约客户命名为“坏样本”，非违约客户命名为“好样本”。
df = pd.DataFrame()  # 创建一个空DataFrame用来汇总数据
df['总数'] = cut_group_all
df['坏样本'] = cut_y
df['好样本'] = cut_n
df

# 计算坏样本%和好样本%
df['坏样本%'] = df['坏样本'] / df['坏样本'].sum()
df['好样本%'] = df['好样本'] / df['好样本'].sum()
df

import numpy as np
df['WOE'] = np.log(df['坏样本%'] / df['好样本%'])
df

df = df.replace({'WOE': {np.inf: 0, -np.inf: 0}})

df['IV'] = df['WOE'] * (df['坏样本%'] - df['好样本%'])
df

iv = df['IV'].sum()
print(iv)

0.34657359027997264

# 将上面的内容首先定义为一个函数
import pandas as pd
import numpy as np

def cal_iv(data, cut_num, feature, target):
    # 1.数据分箱
    data_cut = pd.cut(data[feature], cut_num)

    # 2.统计各个分箱样本总数、坏样本数和好样本数
    cut_group_all = data[target].groupby(data_cut).count()  # 总客户数
    cut_y = data[target].groupby(data_cut).sum()  # 坏样本数
    cut_n = cut_group_all - cut_y  # 好样本数
    # 汇总基础数据
    df = pd.DataFrame()  # 创建一个空DataFrame用来汇总数据
    df['总数'] = cut_group_all
    df['坏样本'] = cut_y
    df['好样本'] = cut_n

    # 3.统计坏样本%和好样本%
    df['坏样本%'] = df['坏样本'] / df['坏样本'].sum()
    df['好样本%'] = df['好样本'] / df['好样本'].sum()

    # 4.计算WOE值
    df['WOE'] = np.log(df['坏样本%'] / df['好样本%'])
    df = df.replace({'WOE': {np.inf: 0, -np.inf: 0}}) 

    # 5.计算各个分箱的IV值
    df['IV'] = df['WOE'] * (df['坏样本%'] - df['好样本%'])

    # 6.汇总各个分箱的IV值，获得特征变量的IV值
    iv = df['IV'].sum()
    
    print(iv)

# 有了上面的自动计算IV值的函数后，通过如下代码来读取客户流失预警模型中的相关数据：
data = pd.read_excel('股票客户流失.xlsx')
data.head()

# 我们利用刚刚编好的函数进行第一个特征变量“账户资金（元）”的IV值计算，代码如下：
cal_iv(data, 4, '账户资金（元）', '是否流失')

0.15205722409339645

for i in data.columns[:-1]: #不需要最后一列目标变量, '-' 是倒数的意思
    print(i + '的IV值为：')
    cal_iv(data, 4, i, '是否流失')  # 调用函数

账户资金（元）的IV值为：
0.15205722409339645
最后一次交易距今时间（天）的IV值为：
0.2508468300174099
上月交易佣金（元）的IV值为：
0.30811632146662304
本券商使用时长（年）的IV值为：
0.6144219248359752

# 使用Pandas库读入一组存在多重共线性的数据，并对其回归作为示例：
import pandas as pd
df = pd.read_excel('数据.xlsx')
df.head()

# 对数据集划分特征变量和目标变量：
X = df.drop(columns='Y')
Y = df['Y']

X.corr()

# 为了检验上述回归中是否存在严重的多重共线性，使用Python的VIF检验模块来验证：
from statsmodels.stats.outliers_influence import variance_inflation_factor
vif = [variance_inflation_factor(X.values, X.columns.get_loc(i)) for i in X.columns]

vif

[259.6430487184967, 257.6315718292196, 1.302330632715429]

# 如果对上面的快捷写法不太理解，上面的代码也可以写成：
vif = []
for i in X.columns:  # i对应的是每一列的列名
    vif.append(variance_inflation_factor(X.values, X.columns.get_loc(i)))
    
vif

[259.6430487184967, 257.6315718292196, 1.302330632715429]

# 对数据集重新划分特征变量和目标变量：
X = df[['X1', 'X3']]
Y = df['Y']

# 进行检验VIF检验：
from statsmodels.stats.outliers_influence import variance_inflation_factor
vif = [variance_inflation_factor(X.values, X.columns.get_loc(i)) for i in X.columns]

vif

[1.289349054516766, 1.289349054516766]

import pandas as pd
data = pd.read_excel("信用卡数据.xlsx")
data.head()

# 通过如下代码提取特征变量并将其赋值给变量X，提取目标变量并将其赋值给变量y：。
X = data.drop(columns='分类')
y = data['分类']

# 然后使用collections库中的Counter()方法，对目标变量进行计数：
from collections import Counter
Counter(y)

Counter({0: 1000, 1: 100})

# 随机过采样

from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_oversampled, y_oversampled = ros.fit_resample(X, y)

# 用Counter()方法检验一下SMOTE过采样的效果。
Counter(y_oversampled)

Counter({0: 1000, 1: 1000})

# SMOTE过采样

from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=0)
X_smotesampled, y_smotesampled = smote.fit_resample(X, y)

# 用Counter()方法检验一下SMOTE过采样的效果。
Counter(y_smotesampled)

Counter({0: 1000, 1: 1000})

# 仍然采用上方的信用违约数据进行欠采样代码的展示：
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_undersampled, y_undersampled = rus.fit_resample(X, y)

# 用Counter()方法检验一下随机欠采样的效果。
Counter(y_undersampled)

Counter({0: 100, 1: 100})

# 不违约的样本数从1000下降至违约的样本数100，这证明我们的随机欠采样有效。同时我们可以打印特征变量X_undersampled的shape来看看特征变量的变化：
X_undersampled.shape

(200, 6)

	房屋编号	朝向_东	朝向_北	朝向_南	朝向_西
0	1	1	0	0	0
1	2	0	0	1	0
2	3	0	0	0	1
3	4	0	1	0	0
4	5	0	0	1	0

	房屋编号	朝向_东	朝向_北	朝向_南
0	1	1	0	0
1	2	0	0	1
2	3	0	0	0
3	4	0	1	0
4	5	0	0	1

	酒精含量	苹果酸含量
0	-0.754829	0.267261
1	-0.215666	-1.069045
2	-1.293993	-1.069045
3	0.862662	1.603567
4	1.401826	0.267261

	账户资金（元）	最后一次交易距今时间（天）	上月交易佣金（元）	本券商使用时长（年）	是否流失
0	22686.5	297	149.25	0	0
1	190055.0	42	284.75	2	0
2	29733.5	233	269.25	0	1
3	185667.5	44	211.50	3	0
4	33648.5	213	353.50	0	1

	X1	X2	X3
X1	1.000000	0.992956	-0.422788
X2	0.992956	1.000000	-0.410412
X3	-0.422788	-0.410412	1.000000

第11章特征工程之数据预处理¶

11.1 非数值类型数据处理¶

11.1.1 Get_dummies哑变量处理¶

11.1.2 Label Encoding编号处理¶

补充知识点: pandas库中的replace()函数¶

11.2 重复值、缺失值及异常值处理¶

11.2.1 重复值处理¶

11.2.2 缺失值处理¶

11.2.3 异常值处理¶

11.3 数据标准化¶

11.3.1 min-max标准化¶

11.3.2 Z-score标准化¶

11.4 数据分箱¶

11.5 特征筛选: WOE值与IV值¶

11.5.1 WOE值的定义与计算¶

11.5.2 IV值的定义与计算¶

补充知识点: 使用IV值而不使用WOE值的原因¶

11.5.3 WOE值与IV值的代码实现¶

11.5.4 案例实战: 客户流失预警模型的IV值计算¶

11.6 多重共线性的分析与处理¶

11.6.1 多重共线性的定义¶

11.6.2 多重共线性的分析与检验¶

11.7 过采样和欠采样¶

11.7.1 过采样¶

11.7.2 欠采样¶

	c1	c2	c3
0	False	False	False
1	False	False	False
2	False	False	False
3	False	True	False
4	False	False	True
5	False	False	False
6	True	False	False

	总数	坏样本	好样本	坏样本%	好样本%
年龄
(19.97, 30.0]	3	2	1	0.50	0.25
(30.0, 40.0]	3	1	2	0.25	0.50
(40.0, 50.0]	2	1	1	0.25	0.25

	编号	年龄	负债比率	月收入	贷款数量	家属人数	分类
0	1	29	0.22	7800	1	3	0
1	2	52	0.46	4650	1	0	0
2	3	28	0.10	3000	0	0	0
3	4	29	0.20	5916	0	0	0
4	5	27	1.28	1300	0	0	1

	客户编号	性别
0	1	男
1	2	女
2	3	男

	客户编号	性别_女	性别_男
0	1	0	1
1	2	1	0
2	3	0	1

	客户编号	性别_男
0	1	1
1	2	0
2	3	1

	房屋编号	朝向
0	1	东
1	2	南
2	3	西
3	4	北
4	5	南

第11章 特征工程之数据预处理¶

11.1 非数值类型数据处理¶

11.1.1 Get_dummies哑变量处理¶

11.1.2 Label Encoding编号处理¶

补充知识点: pandas库中的replace()函数¶

11.2 重复值、缺失值及异常值处理¶

11.2.1 重复值处理¶

11.2.2 缺失值处理¶

11.2.3 异常值处理¶

11.3 数据标准化¶

11.3.1 min-max标准化¶

11.3.2 Z-score标准化¶

11.4 数据分箱¶

11.5 特征筛选: WOE值与IV值¶

11.5.1 WOE值的定义与计算¶

11.5.2 IV值的定义与计算¶

补充知识点: 使用IV值而不使用WOE值的原因¶

11.5.3 WOE值与IV值的代码实现¶

11.5.4 案例实战: 客户流失预警模型的IV值计算¶

11.6 多重共线性的分析与处理¶

11.6.1 多重共线性的定义¶

11.6.2 多重共线性的分析与检验¶

11.7 过采样和欠采样¶

11.7.1 过采样¶

11.7.2 欠采样¶

第11章特征工程之数据预处理¶